Uvod

V projektu je analiza nesreč z rekreativnimi plovili. Deskriptivno so prikazane okoliščine nesreč, analitično pa je vključena še linearna regresija števila smrtnih nesreč v oziru na število registriranih plovil in povprečnega prihodka državljana ZDA. V shiny je še spletna aplikacija, ki prikazuje število nesreč v oziru na okoliščine nesreče.

Dodano je še nekaj splošno globalnih in lokalnih podatkov o regati Volvo ocean race (zgolj za potrebe predmeta, ne ker bi dodalo kakršnokoli vrednosti prvotni ideji nesreč).


Spletna povezava do virov podatkov in grob opis podatkov izvlečenih tabel:

2020 Recreational boating statistics

Pihodek v ZDA v letu 2020

The ocean race     The ocean race leta 1985/86

  1. TABELA: (Nesreče v posameznih mesecih)
    1. Mesec (faktor)
    2. Smrtne nesreče (niz)
    3. Nesmrtne nesreče (niz)
    4. Vse nesreče (niz)
    5. Procent smrtnih nesreč (niz)
    6. Število smrti (stevilo)
  2. TABELA: (Nesreče v posameznih letij)
    1. Leto (stevilo)
    2. Smrtne nesreče (stevilo)
    3. Nesmrtne nesreče (stevilo)
    4. Vse nesreče (stevilo)
  3. TABELA: (Nesreče v posamezni zvezni državi)
    1. Zvezna država (niz)
    2. Vse nesreče (stevilo)
    3. Smrtne nesreče (stevilo)
    4. Vse nesreče (stevilo)
    5. Oškodovani (stevilo)
    6. Število smrti (stevilo)
    7. Število ponesrečencev (stevilo)
    8. Škoda v USD (stevilo)
  4. TABELA: (Število registriranih plovil)
    1. Leto (stevilo)
    2. Število smrti (stevilo)
    3. Število registriranih plovil (stevilo)
    4. Delež smrtnih izidov (stevilo)
    5. Število smrti v plovilih z motorjem (stevilo)
    6. Število registriranih motornih plovil (stevilo)
    7. Delež smrnih izidov z motornim plovilom (stevilo)
  5. TABELA: (Prihodek državljana ZDA)
    1. Leto (stevilo)
    2. Povprečni prihodek (stevilo)
  6. TABELA: (Vzrok nesreč)
    1. Vzrok (faktor)
    2. Število nesreč (stevilo)
    3. Število smrti (stevilo)
    4. Število poškodb (stevilo)
    5. Tip nesreče (niz)
  7. TABELA: (Pregled regat Volvo ocean race)
    1. Leto (število)
    2. Klasa (niz)
    3. Število kol (stevilo)
    4. Število kratkih podregat (stevilo)
    5. Število prijavljenih ekip (število)
    6. Kraj začetka (niz)
    7. Kraj konca (niz)
    8. Zmagovalna barka (niz)
    9. Zmagovalni skipper (niz)
  8. TABELA: (Pregled regate Volvo ocean race leta 1985/86)
    1. Kolo (niz)
    2. Datum začetka (niz)
    3. Kraj začetka (stevilo)
    4. Kraj konca (stevilo)
    5. Razdalja (število)
    6. Zmagovalna ladja (niz)
    7. Razdalja (število)
    8. Zemlj. dolžina začetka (število)
    9. Zemlj. širina začetka (število)
    10. Zemlj. dolžina konca (število)
    11. Zemlj. dolžina konca (število)

Vizualizacija podatkov

Na zemljevidu ZDA je prikazano število smrtnih nesreč glede na posamezno zvezno državo.

Graf števila smrti v posameznem mesecu (v letu 2020)

Graf števila smrti v posameznem letu

Za dodatek si oglejmo malo regate

Graf, ki prikazuje povzetek regat “Volvo ocean race” v letih 1973-2018. Sam graf ne pove kaj dosti, osi pa so tudi prisilno postavljene.

Oglejmo si zgornjo regato v letu 2017/18. Na zemljevidu lahko vidimo posamezna kola tekme in okvirno pot (ki včasih skipperja pripelje na kopno 😅.


Regresijska analiza

Grafa števila registriranih plovil in prihodka na prebivalca, ki bosta naši pojasnjevalni količini v regresijskem modelu.

Spodaj vidimo rezultat regresijske analize. Postavimo hipotezo \(H^{(1)}_0: \beta_1 =0\) in spotoma \(H^{(2)}_0: \beta_2 = 0\), kjer se \(\beta_1\) nanaša na število registriranih plovil, \(\beta_2\) pa na prihodek. Iz izhoda vidimo, da \(|t_1| < 1.96, |t_2| > 1.96\), zato ničelno hipotezo za registrirana plovila lahko zavrnemo.

Pod izhodom si oglejmo še diagnostiko predpostavk linearne regresije. \(R^2\) je zelo majhen, kar ni dober znak. Rdeča črta ostankov proti fittanim vrednostim je sicer dobra (ravna okoli 0), a nas motijo same vrednosti (ta preveri samo linearnost podatkov). Drugi in tretji graf sta (morda presentljivo) zadovoljiva.

## 
## Call:
## lm(formula = Smrti ~ Prihodek + Registrirane, data = registracije)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -86.357 -20.868  -8.334  15.955 100.969 
## 
## Coefficients:
##                Estimate Std. Error t value Pr(>|t|)  
## (Intercept)  -9.249e+02  8.168e+02  -1.132    0.273  
## Prihodek      3.802e-03  3.062e-03   1.241    0.231  
## Registrirane  1.166e-04  5.633e-05   2.070    0.054 .
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 48.68 on 17 degrees of freedom
## Multiple R-squared:  0.2679, Adjusted R-squared:  0.1817 
## F-statistic:  3.11 on 2 and 17 DF,  p-value: 0.07065

Omenimo, da bi lahko pri linearni regresiji eliminirali trend pri prihodku na prebivalca, da bi to spremenljivko logaritmirali. S tem pristopom ničelne hipoteze tudi za število registriranih plovil ne moremo zavrniti.


Shiny